查看原文
其他

金融学文本大数据挖掘方法与研究进展, 金融学者看过来!

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

photo courtesy: bing.

关于机器学习方法,可参阅如下文章:1机器学习方法出现在AER, JPE, QJE等顶刊上了!2前沿: 机器学习在金融和能源经济领域的应用分类总结3文本分析的步骤, 工具, 途径和可视化如何做?4文本大数据分析在经济学和金融学中的应用, 最全文献综述5最全: 深度学习在经济金融管理领域的应用现状汇总与前沿瞻望, 中青年学者不能不关注!6Top前沿: 农业和应用经济学中的机器学习, 其与计量经济学的比较, 不读不懂你就out了!7机器学习和大数据计量经济学, 你必须阅读一下这篇8机器学习与Econometrics的书籍推荐, 值得拥有的经典9机器学习在微观计量的应用最新趋势: 大数据和因果推断10机器学习第一书, 数据挖掘, 推理和预测11Top, 机器学习是一种应用的计量经济学方法, 不懂将来面临淘汰危险!12最新: 运用机器学习和合成控制法研究武汉封城对空气污染和健康的影响! 13陈硕: 回顾与展望经济学研究中的机器学习14器学习对经济学研究的影响研究进展综述,15.机器学习之KNN分类算法介绍: Stata和R同步实现(附数据和代码)

姚加权,张锟澎,罗平.金融学文本大数据挖掘方法与研究进展[J].经济学动态,2020(04):143-158.

摘要:在金融学领域的传统实证研究中,所用数据多局限于财务报表和股票市场数据等结构化数据。而在大数据时代,计算机技术的进步使得数据类型不断丰富,研究者开始将非结构化的文本大数据引入到金融学领域的研究中,其主要包括上市公司披露文本、财经媒体报道、社交网络文本、网络搜索指数以及P2P网络借贷文本等,并对文本的可读性、语气语调、相似性以及语义特征展开研究。本文首先介绍了金融学领域文本大数据挖掘步骤和方法,描述了语料获取、预处理过程、文档表示以及文档的特征抽取;然后根据不同的文本信息来源,梳理了金融学文本大数据的研究进展;最后对未来金融学文本大数据的研究方法和研究内容进行了展望。
引言
在金融学领域的传统实证研究文献中,研究数据多局限于财务报表数据、股票市场数据等结构化数据(structured data)。而在大数据时代,计算机技术的不断提高使得数据类型更加丰富,文本大数据已经成为计算机可以解读和分析的数据,并能够对非传统领域的经济现象展开研究(Loughran & McDonald, 2016; Teoh, 2018)。这种非结构化数据(unstructured data)在公司对外披露以及股票市场中所占的比重较大,传递形式和表达方式更为多样化,尤其是在中国这种“听话听音,听锣听声”的高语境传播环境中(林乐和谢德仁,2016),文本大数据在金融学领域中拥有较高的研究价值。文本分析(texual analysis)是指,运用特定的方法挖掘文本信息内容,从而对文本的可读性、情绪语调、语义特征以及相似性等文本特征进行分析。通过对上市公司披露文本、财经媒体报道、社交网络文本、网络搜索指数以及P2P网络借贷文本等文本大数据进行挖掘和分析,研究者能够从文本的披露行为(Loughran et al, 2009; 曾庆生等,2018)、文本的情绪和语调(Li, 2010b; Loughran & McDonald, 2011; Garcia, 2013; 汪昌云和武佳薇,2015)以及文本信息的市场反应(Antweiler & Frank, 2004; 游家型和吴静,2012)等方面展开研究,从而为金融学领域提供更丰富的研究内容和研究视角。
文本分析型研究有较长的历史,Jones & Shoemaker(1994)以及Cole & Jones(2005)分别对会计文本内容以及管理层讨论与分析(management discussion and analysis, MD&A)的相关文献进行了综述。随后,Li(2010a)着重于计算机语言学、自然语言处理以及统计学的大样本文本分析,按照不同主题调查了企业披露文本的相关研究。再之后, Loughran & McDonald(2016)对国外会计和金融领域中的文本分析文献以及相关方法进行了调查和描述。Guo et al(2016)总结了机器学习方法在财务文本大数据分析中的应用。Gentzkow et al(2019)则描述了文本大数据的分析方法以及在经济学中的应用。Cong et al(2019)描述了金融市场中典型的英文文本来源,并讨论了神经网络模型与生成统计模型在文本分析领域的应用。在文本分析研究综述方面,国内研究者如唐国豪等(2016)整理了国内外基于文本情绪分析的行为金融研究进展,并总结了主要的文本分析方法。沈艳等(2018)综述了英文文本大数据分析在经济学和金融学领域中的应用,辅助以中文文本文献。张学勇和吴雨玲(2018)以国外文献为主,从网络新闻数据、搜索引擎数据、社交网络数据以及网络论坛数据四个方面,梳理了资产定价领域中运用网络大数据挖掘技术分析投资者心理和行为的研究内容。
综合来看,以往文献着重于介绍文本分析的主要方法,但缺乏对文本大数据挖掘步骤和方法的详细介绍。本文主要在以下方面拓展了以往的研究:首先,详细介绍了文本大数据挖掘步骤和方法,描述了文本的语料获取、预处理过程、文档表示以及文档的特征抽取。其次,介绍了国内外金融学文本大数据挖掘的主要文本信息来源,并根据不同的文本信息来源,梳理了金融学文本大数据的国内外研究进展,以便把握文本大数据目前在金融学领域中的研究方向和重点领域。最后,提出了未来的研究展望,期望有助于国内研究者进一步拓展文本大数据在金融学和经济学领域的应用。

关于相关计量方法视频课程,文章,数据和代码,参看 1.面板数据方法免费课程, 文章, 数据和代码全在这里, 优秀学人好好收藏学习!2.双重差分DID方法免费课程, 文章, 数据和代码全在这里, 优秀学人必须收藏学习!3.工具变量IV估计免费课程, 文章, 数据和代码全在这里, 不学习可不要后悔!4.各种匹配方法免费课程, 文章, 数据和代码全在这里, 掌握匹配方法不是梦!5.断点回归RD和合成控制法SCM免费课程, 文章, 数据和代码全在这里, 有必要认真研究学习!6.空间计量免费课程, 文章, 数据和代码全在这里, 空间相关学者注意查收!7.Stata, R和Python视频课程, 文章, 数据和代码全在这里, 真的受用无穷!

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存